线性回归模型
线性回归方程
假设见计量经济学回顾
最小二乘估计
目标函数为
对各个回归系数求偏导,得到正规方程
令正规方程组(各个偏导数)等于0,可以得到回归系数的OLS估计。
其中,$l_{xy}=\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})$,$l_{xx}=\sum_{i=1}^n (x_i-\bar{x})(x_i-\bar{x})$
由正规方程组形式还可以知道,估计出来的残差具有如下性质:
即残差之和为0,残差$\hat{u}$和$X$之间内积为零。
$\beta_0, \beta_1$的方差
所以,$var(\hat{\beta_0})=\frac{\sum_{i}^n x_i^2/n}{l_{xx}} \sigma^2$。以上结果告诉我们,收集数据的时候,应该考虑使$x$的取值尽可能分散,样本量也要尽可能的大
$\beta_0, \beta_1$的协方差
残差性质
残差一样是随机变量,$e_i=\hat{u_i}=y_i-\hat{y_i}=y_i-\hat{\beta_0}-\hat{\beta_1}x_i$,其均值$E(e_i)=0$是显而易见的。
其中$h_{ii}=\frac{1}{n}+\frac{(x_i-\bar{x})^2}{l_{xx}}$ 称为杠杆值。$0<h_{ii}<1$,当$x_i$靠近$\bar{x}$时,$h_{ii}$的值接近于0,相应的残差方差就大;当$x_i$远离$\bar{x}$时,$h_{ii}$的值接近于1,相应的残差方差就小。这条性质可能使读者意外,实际上,远离$\bar{x}$的值必然较少,回归线比较容易“照顾”这些少数点,使得回归线接近这些点,因而远离$\bar{x}$附近的$x_i$相应的残差方差较小。
在残差分析中,一般认为超过$\pm 2\sigma$或$\pm 3\sigma$的残差为异常值,考虑到普通残差的方差不等,故引入以下改进的残差。
标准化残差
学生化残差
标准化残差使残差具有可比性,但没有解决方差不等的问题,学生化残差的方差相等,优于标准化残差,因为类似t统计量的构造方式,所以称之为学生化残差。
区间预测
区间预测分为两种类型,有的教科书说均值预测和个值预测,何晓群的《应用回归分析》的区间预测分为因变量新值的区间预测和因变量新值的平均值的区间预测。
因变量新值的区间预测
所以有$\hat{y}_0 \sim N(\beta_0+\beta_1 x_0,h_{00}\sigma^2)$
因变量新值的平均值的区间预测
由于$\hat{y}_0$是先前独立观测的随机变量的线性组合,现在的新值$y_0$是与先前观测值独立的,所以$y_0$与$\hat{y}_0$相互独立。有
据此可以推断$y_0$的置信区间。